메뉴

#Opus 4.7

TD
The Decoder 28일 전
IMP 8

최신 AI 모델들도 범하는 3가지 체계적 추론 오류

ARC-AGI-3 벤치마크 분석에 따르면, 최신 AI 모델들인 GPT-5.5와 Opus 4.7이 1% 미만의 저조한 성적을 기록하는 원인은 세 가지 체계적인 추론 오류 때문입니다. 이들은 세부 사항은 파악하지만 전체 맥락을 연결하지 못하고, 기존 학습 데이터에 얽매여 낯선 환경을 잘못된 게임 규칙으로 해석하며, 우연히 성공하더라도 그 원리를 검증하지 않아 다음 단계를 풀지 못하는 치명적인 한계를 보였습니다.

ARC-AGI 추론 오류 AI 벤치마크
TD
The Decoder 42일 전
IMP 8

동일한 요금제, 더 높은 실사용료…오퍼스 4.7 토큰 소모 증가

Anthropic의 최신 모델인 Opus 4.7은 전 모델(4.6)과 동일한 API 요금을 유지하고 있으나, 실제 요청당 토큰 소모량이 평균 30% 이상 증가해 전체 사용 비용이 크게 상승하는 것으로 나타났습니다. 코드 생성 작업에서 특히 토큰 낭비가 심하며, 80턴 기준 약 20~30%의 추가 비용이 발생할 것으로 추정됩니다. 그러나 지시 사항 준수 성능(IFEval 기준)은 이전 버전 대비 약 5%p 향상되어 기능적 개선은 이루어진 것으로 확인됩니다.

Anthropic Opus 4.7 토큰 비용